Sora 2
https://vimeo.com/1123289230/7b3f96dcb7?fl=pl&fe=vl
従来の動画モデルは「楽観的すぎる」傾向があり、テキストプロンプトを実行するために物体を変形させたり、現実を歪めたりしてしまいます。例えば、バスケットボール選手がシュートを外した場合、ボールが突然リングにテレポートすることすらありました。 一方、Sora 2 では選手がシュートを外すと、ちゃんとボールはバックボードに当たって跳ね返ります。興味深いことに、Sora 2 が犯す「ミス」は、多くの場合「Sora 2 が暗黙的にシミュレーションしている内部エージェントのミス」として現れます。まだ完全ではないにせよ、以前のシステムよりもはるかに物理法則を守れるようになったのです。これは有用な世界シミュレーターにとって極めて重要な能力であり、成功だけでなく失敗も正しくモデル化できることが必須です。 今日、Sora 2を搭載した新しいソーシャルiOSアプリ「Sora」をリリースします。 2025/10/1 日本のストアにはなさそう基素.icon
確か今はアメリカとカナダのみのはずmorisoba65536.icon
アプリがモバイルOSで揃った後の今更だがブラウザからなら使えた(試してた)morisoba65536.icon
(2025/11時点で)他の動画モデルとの一番の違いは「カット割りを多用する傾向にある」事。
同時期にアップデートしたGrokなんかはよほどのことがない限りカット割りをしようとしないが、Sora2はすぐにカット割りを使おうとする。 この辺は若干機能的な意味で評価が割れそうなところ。素人が映像を作る時は文章指示だけでいい感じのマルチカット映像が作れるのは利点だが動画素材としてカットを自分で編集する前提の人には「余計なこと」に感じるかもmorisoba65536.icon
i2vとして渡した画像をリファレンスとして使う能力はあるが、一枚目がガッツリフレームに残るなどもちょっと気になる。
使用した感じとしても映像知識のない一般人でも使いやすい方向にかなり寄ってる印象(良くも悪くもかなり色んな物を「補間する」)
例えばプロンプトが英語だと特に何も指定してなくても英語音声、米国っぽい背景に米国にいそうな人、日本語だと日本語音声、なんか日本っぽい背景に日本にいそうな人、みたいな映像を自動で割り当てる。(明確に場所や言語などを指示するとそれには従う)
とりあえず現時点では人の動きが中心に学習されているようで、人が出てこない動画だとうまく動きをコントロールしきれてない感じがある(ピタゴラスイッチ的なの作ろうとしたら突然仕掛けがワープしたりする…)morisoba65536.icon
Proアカウントではない動画(ウォーターマークが表示される動画)にはC2PAが埋め込まれてないらしい